iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 21
0
自我挑戰組

大數據概念系列 第 21

Day21 | Spark核心數據庫

  • 分享至 

  • xImage
  •  

Spark裡有幾個重要要素

  • RDD(Resilient Distributed Datasets)彈性分散式資料集
    類似於一個分散式記憶體概念,可以在記憶體或是硬碟中處理資料,並具有高容錯性以及不可變性,並提供了多樣的API來操作資料Spark SQL
    是Spark用來執行SQL語法查詢的功能

  • Spark Streaming巨量資料串流處理
    是以Spark核心API擴充出來的一個模組

  • MLlib 機器學習
    是Spark上分散式機器學習框架。可以建置機器學習應用程式及分析資料,提供許多可用於機器學習工作的程式:
    • 分類
    • 迴歸
    • 叢集
    • 主題模型化
    • 奇異值分解 (SVD) 和主體元件分析 (PCA)
    • 假設測試和計算範例統計資料

  • GraphX圖形處理
    使用RDD來儲存資料,並提供了實用的圖操作方法。
    GraphX是一個操作圖(如網路的好友圖)和圖的並行計算資料庫。GraphX允許每個節點和邊綁定任意屬性來創建一個有向圖(是擁有頂點屬性和邊屬性的一種圖)。

資料來源:
https://ithelp.ithome.com.tw/articles/10195556
https://docs.microsoft.com/zh-tw/azure/hdinsight/spark/apache-spark-machine-learning-mllib-ipython
https://blog.csdn.net/tanglizhe1105/article/details/50740295


上一篇
Day20 | Spark介紹及特色
下一篇
Day22 | Hadoop的應用
系列文
大數據概念30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言